昨天訓練前,沒注意看讀取訓練資料的路徑設定,沒有把前處理的資料wiki跟medical的資料做pretrain.py,這邊要補一下;今天只好再重新放著做pretrain。
data_path_list=[
#'./data/pretrain_data.bin',
#'./data/baidubaike_563w.bin',
'./data/medical_book.bin',
'./data/medical_encyclopedia.bin',
# './data/medical_qa.bin',
'./data/wiki.bin'
]
為了要能夠下載完整的百度中文資料,今天試了好幾個小時,就是沒有辦法收到百度的驗證信,看起來台灣人要辦百度帳號實在比我想像的要麻煩,不確定是否可以搞定,剛好我在大陸公司工作所以目前打算同步找個大陸人看能不能幫忙下載或借個帳號。